Смена парадигмы: от специализированных моделей к моделям большого языка

Эволюция обработки естественного языка: фрагментированная ИИ-система к основным моделям

Определения

Фрагментированная ИИ-система: Эпоха, определяемая разрозненными, специализированными нейронными архитектурами, созданными для конкретных задач, таких как маркировка последовательностей или классификация.
Основная модель: Унифицированная, монолитная архитектура трансформаторов, которая рассматривает все языковые проблемы как генеративную текст-в-текст последовательность $x \rightarrow y$.

Ключевые концепции

Архитектурная интеграция: Раньше обработка естественного языка требовала специализированные пайплайны (Би-ЛСТМ для распознавания именованных сущностей, сверточные нейронные сети для анализа тональности). Модели большого языка объединяют эти изоляционные структуры в один центральный блок, где одни и те же веса используются для всех задач.
Единый интерфейс: Модели большого языка заменяют специализированные "выходные головки" (например, 3-классовый софтмакс) на естественно-языковой интерфейс. Входы и выходы всегда являются строками, позволяя модели интерпретировать намерение а не формат.
Передача знаний: Традиционные модели были "чистыми листами" для каждой задачи. Модели большого языка приоризируют Обобщение первым, где конкретные задачи являются простым применением предварительно существующего, надежного внутреннего представления языка.

Исторический контекст

До 2018 года: Изоляция задач требовала обучения различных моделей с разными функциями потерь $\mathcal{L}_{task}$.
Современная эпоха: Парадигма "текст-в-текст" позволяет одной модели (например, Llama-3) переключаться между задачами с помощью нулевого или малого числа примеров.

Сравнение реализации на Python

ВОПРОС 1

Что отличает интерфейс модели большого языка от традиционных моделей обработки естественного языка?

Использование специализированных выходных головок для каждой задачи.

Использование единого текст-в-текст строкового интерфейса.

Необходимость обучать новую модель для каждого набора данных.

Зависимость от архитектур Би-ЛСТМ.

ВОПРОС 2

В эпоху основной модели, как разработчик переключается с распознавания именованных сущностей на анализ тональности?

Изменяя функцию потерь $\mathcal{L}_{task}$ и переобучая.

Развертывая полностью другую архитектуру нейронной сети.

Изменяя естественно-языковую подсказку для той же самой модели.

Кейс-стади: Разработчик 2018 года против современного разработчика

Прочитайте сценарий ниже и ответьте на вопросы.

Разработчику нужно создать чат-бота, который распознаёт имена пользователей (распознавание именованных сущностей) и определяет злость (анализ тональности). Сравните традиционный подход (две модели, два набора обучающих данных, два пайплайна развертывания) с подходом модели большого языка (одна модель, например, Llama-3, две системные подсказки).

Вопрос

1. Какова главная разница в архитектурной нагрузке между двумя подходами?

Ответ:
Традиционный подход требует хостинга и поддержки нескольких различных моделей в памяти, тогда как подход модели большого языка требует хостинга только одной монолитной модели, которая справляется с обоими задачами.

Вопрос

2. Как различаются требования к данным при добавлении новой задачи (например, перевода)?

Ответ:
Традиционно, добавление перевода потребовало бы огромного нового параллельного корпуса для обучения новой модели с нуля. С моделью большого языка может потребоваться только несколько примеров или нулевой пример, используя её предварительно существующие знания.

Вопрос

3. Как в подходе модели большого языка модель узнаёт, какую задачу выполнять?

Ответ:
Через естественно-языковую подсказку, предоставленную во время вывода, которая служит единым интерфейсом для руководства генеративным выводом модели.